PF-ETL : vers l'intégration de données massives dans les fonctionnalités d'ETL

نویسندگان

  • Mahfoud Bala
  • Omar Boussaïd
  • Zaia Alimazighi
  • Fadila Bentayeb
چکیده

ETL process (Extracting, Transforming, Loading) is responsible for extracting data from heterogeneous sources, transforming and finally loading them into a data warehouse. New technologies, particularly Internet and Web 2.0, generating data at an increasing rate, put the information systems (IS) face to the challenge of Big Data. These data are characterized by, in addition to their excessive sizes and speed with which they are generated, greater heterogeneity due to the emergence of new data structures. Integration systems and ETL in particular should be revisited and adapted to cope with the impact of Big Data. In this context and to better manage the integration of Big data, we propose a new approach to ETL process for which we define features that can be run easily on a cluster with MapReduce (MR) model. MOTS-CLES : ETL, Données massives, Entrepôts de données, MapReduce, Cluster

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Vers l'intégration de la prédiction dans les cubes OLAP

L’analyse en ligne OLAP (On Line Analytical Processing) soutient les entrepôts de données dans le processus d’aide à la décision. Cependant, il n’existe pas d’outils pour guider l’utilisateur dans l’exploration, ni pour approfondir l’analyse vers l’explication et la prédiction. Dans un processus décisionnel, un utilisateur peut vouloir anticiper la réalisation d’évènements futurs. Le couplage d...

متن کامل

On-line Learning for Very Large Datasets Apprentissage Stochastique pour Très Grands Echantillons

La conception de très grand systèmes d’apprentissage pose un grand nombre de problèmes non résolus. Savons nous, par exemple, construire un algorithme qui “regarde” la télévision pendant quelques semaines et apprend à énumérer les objets présents dans ces images. Les lois d’échelles de nos algorithmes ne nous permettent pas de traiter les quantités massives de données que cela implique. L’expér...

متن کامل

Vers une architecture d'adaptation automatique des applications reparties basées composants

Résumé. Les systèmes informatiques d’aujourd'hui sont de plus en plus pervasifs, composés de composants hétérogènes fournissant des fonctionnalités avec des interactions complexes. Les recherches existantes sur le développement à base de composants ont surtout porté sur la structure des composants, les interfaces et les fonctionnalités de ces derniers. Le domaine de l'architecture logicielle tr...

متن کامل

Vers l'intégration multidimensionnelle d'Open Data dans les entrepôts de données

Résumé. L’émergence de nombreuses sources d’Open Data poussent plusieurs communautés de recherche ainsi que des entreprises à développer des outils permettant leur exploitation. En particulier, les données statistiques présentes dans les Open Data peuvent constituer des informations utiles aux analyses décisionnelles. Toutefois les Open Data très hétérogènes et disséminés en plusieurs morceaux ...

متن کامل

Panorama de travaux autour de l'intégration de données spatio-temporelles dans les hypercubes

Résumé : Cet article présente un panorama des différents travaux qui sont effectués dans notre équipe autour de l’intégration des données spatiotemporelles dans les entrepôts de données et les hypercubes. Nous nous sommes plus particulièrement intéressés à la prise en compte des évolutions dans les dimensions spatiales, à la modélisation multidimensionnelle de données continues et à la concepti...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014